查看原文
其他

企研数据处理工作论文系列 | 专利库与工商库匹配报告(下)

企研数据 社科大数据 2023-02-21

 目录 一、数据库简介    (一)中国专利数据库简介
    (二)中国工商企业数据库简介
二、专利数据与工商数据匹配过程    (一)数据匹配流程
    (二)数据预处理
    (三)数据匹配过程三、匹配结果及进一步考察

本文承接自:企研数据处理工作论文系列 | 专利库与工商库匹配报告(上)


公众号内回复关键词“WP0007” 或 打开浏览器搜索http://paper.qiyandata.com/WP0007.pdf  即可获取全文PDF版!





中国专利数据库与全量企业工商注册数据库匹配报告(下)
摘要:本文通过将中国专利数据库(以下简称“专利数据”)与中国全量工商企业注册数据库(以下简称“工商数据”)进行横向匹配,构建完整的“中国全量企业专利数据库”。相较于其他学者通过专利数据与中国规模以上工业企业数据库(简称“工企数据”)匹配得到的“中国规上工业企业专利数据库”,本文所构建的“中国全量企业专利数据库”涵盖了中国不同所有制,所有规模企业的专利信息,能够更加全面地刻画中国企业的专利创新。


二、专利数据与工商数据匹配过程

(三)数据匹配过程

1. 企业全称精确匹配

基于清洗后的企业全称,将专利申请人名称与(企业名称被以同样规则清洗之后的)企业名称拉链表进行匹配。其中,能够与拉链表企业全称实现唯一匹配[4]的专利申请人名称共计865472个,涉及专利14123997条;非唯一匹配的专利申请人名称共计5345个,涉及专利116244条;无法匹配的专利申请人名称共计98623个,涉及专利3015868条。

[4] 唯一匹配是指同一个专利申请人名称在企业名称拉链表中仅匹配到一个企业ID。非唯一匹配则是指同一个专利申请人名称在企业名称拉链表中匹配到两个及以上的企业ID。而无法匹配是指专利申请人名称不存在于企业名称拉链表之中。

2. 企业名称主干精确匹配

(1)企业名称主干+省份

根据清理得到的企业名称主干,我们将无法通过企业全称精确匹配的那3015868条专利数据,再次与企业名称拉链表进行匹配。因前文提取企业名称主干时,不仅剔除了地址信息,还剔除了“总公司,分公司,总院,分院,总部,分部,总厂”等总(分)机构标识的词汇。为了解决总分机构专利的错匹问题,本文在企业名称主干匹配的过程中,同时限定地区,即要求专利的申请地址与企业注册地在同一省份。基于“企业名称主干+省份”精确匹配,进一步实现56307条专利的唯一匹配,22965条专利的非唯一匹配,剩下2936596条无法匹配的专利,进入下一个匹配环节。

(2)企业名称主干

我们进一步放松匹配的约束条件,仅基于清理后的企业名称主干进行匹配,不再限定省份(事实上,如前文所述,本文所使用的专利数据有部分专利的申请地址是缺失的,限定省份将导致这部分专利无法通过“企业名称主干+省份”与工商库实现匹配)。基于“企业名称主干”精确匹配,进一步实现24038条专利的唯一匹配,61413条专利的非唯一匹配,剩下2851145条无法匹配的专利。

3. 非唯一匹配结果筛选

同一个企业名称可能在不同时期被不同企业所使用,因而会出现一个企业名称对应多个企业ID的情况,也就是所谓的“非唯一匹配”。那么该如何确定某一企业ID所对应的企业名称在哪个时间段内是有效的呢?企业名称拉链表不仅包括了每个企业ID所对应的所有企业名称(含现用名和历史曾用名),还包括了每个企业ID所对应的任一企业名称的启用时间和失效时间,可用于辅助识别非唯一匹配结果。根据“启用时间<=申请时间<授权时间(若有)<=失效时间(若有)”这一逻辑,我们进一步识别出80850条专利。

三、匹配结果及进一步考察

1985-2018年国内机构申请的专利共计17256109条,其中能够与工商数据实现唯一匹配的共计14285192条,占比82.78%。各步骤匹配结果如表1所示。

表1 专利数据和工商数据匹配结果

根据专利申请人名称,可将机构专利申请人大致划分为教育机构、医疗机构、科研机构、行政机关、社会团体等非企业主体和企业主体,如表2所示。无法匹配的2851145条专利中,有2582971条是由国内非企业主体申请的。剔除这部分专利后,1985-2018年专利申请总量调整为14673138条,与工商库的匹配率达到97.36%从趋势上看,匹配率逐年上升,自2002年起,每年的匹配率都超过了90%。

表2专利数据中无法与工商库匹配的专利情况分析

根据专利的申请日期,我们对发明专利、实用新型和外观设计三类专利的匹配结果进行分年统计(结果如表3所示)。总的来看,三类专利匹配率均大幅度上升,平均匹配率差异较小。

表3 1985-2018年三类专利的匹配结果

END



公众号内回复关键词“WP0007” 或打开浏览器搜索http://paper.qiyandata.com/WP0007.pdf  即可获取全文PDF版!



加入企研·社科大数据平台数据分享群,获取更多数据资源及新鲜资讯

·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


CCAD学术周报(第109期)| 点击查看本周最新“三农”资讯

课题资讯 | 2022年度国家社科基金重大项目立项名单公示

热点专题 | 迭代升级!企研·数字经济产业企业微观库(2022最新版)重磅上线!

数据超市今起开放个人数据采购权限 | 支持开票

课题资讯 | 2022年度国家社科基金重大项目立项名单公示

TFID | 保险业普惠(2022版)专题数据库—分库介绍(二)

企研·社科大数据平台 | 华东师范大学开通试用!


戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存